BLUE定理

定义

BLUE 是 Best Linear Unbiased Estimator 的缩写，即“最佳线性无偏估计”。在线性测量模型

b = A x + ε

中，若

E [ε] = 0, Cov (ε) = V,

并且 $V$ 正定、 $A$ 满列秩，则加权最小二乘估计

\hat{x} = (A^{T} V^{- 1} A)^{- 1} A^{T} V^{- 1} b

是在所有线性无偏估计中方差最小的估计。

线性、无偏、最小方差

“线性”表示估计量可写成

\hat{x} = L^{*} b

其中 $L^{*}$ 不随观测值 $b$ 改变。“无偏”要求对所有真实 $x$ 都有

E [L^{*} b] = x .

因为 $E [b] = A x$ ，无偏条件等价于

L^{*} A = I .

“最小方差”不是只比较某一个坐标，而是比较任意线性组合的方差。若 $L$ 是加权最小二乘对应矩阵，则对任意满足 $L^{*} A = I$ 的估计，都有

L^{*} V (L^{*})^{T} - L V L^{T} ⪰ 0.

BLUE 估计矩阵

加权最小二乘最小化

(b - A x)^{T} V^{- 1} (b - A x) .

一阶条件给出正规方程

A^{T} V^{- 1} A \hat{x} = A^{T} V^{- 1} b .

因此

L = (A^{T} V^{- 1} A)^{- 1} A^{T} V^{- 1}, \hat{x} = L b .

直接检查可得

L A = (A^{T} V^{- 1} A)^{- 1} A^{T} V^{- 1} A = I,

所以该估计是无偏线性估计。

方差推导

加权估计的协方差为

W = L V L^{T} .

代入 $L$ ：

\begin{aligned} L V L^{T} & = (A^{T} V^{- 1} A)^{- 1} A^{T} V^{- 1} V V^{- 1} A (A^{T} V^{- 1} A)^{- 1} \\ = (A^{T} V^{- 1} A)^{- 1} . \end{aligned}

因此

W = (A^{T} V^{- 1} A)^{- 1} .

若另一个无偏线性估计写为 $L^{*} = L + D$ ，则由 $L^{*} A = I$ 和 $L A = I$ 得到

D A = 0.

同时 $L^{T} = V^{- 1} A (A^{T} V^{- 1} A)^{- 1}$ ，所以

D V L^{T} = D A (A^{T} V^{- 1} A)^{- 1} = 0.

于是

L^{*} V (L^{*})^{T} = L V L^{T} + D V D^{T} .

因为 $D V D^{T}$ 半正定，加权最小二乘的估计协方差不大于任何其他无偏线性估计的协方差。

心率三次测量例子

同一个心率 $x$ 有三次独立测量 $b_{1}, b_{2}, b_{3}$ ：

A = (\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}) .

若三次测量的方差是

\frac{1}{9}, \frac{1}{4}, 1,

则

V^{- 1} = diag (9, 4, 1) .

BLUE 估计为

\hat{x} = \frac{9 b_{1} + 4 b_{2} + b_{3}}{9 + 4 + 1} = \frac{9 b_{1} + 4 b_{2} + b_{3}}{14} .

其方差为

W = (A^{T} V^{- 1} A)^{- 1} = \frac{1}{14} .

这比只使用任何一次测量都更可靠；权重来自测量方差的倒数，而不是来自观测值大小本身。

与高斯假设的关系

BLUE 定理本身不需要误差服从高斯分布，只需要零均值、协方差 $V$ 、线性模型以及无偏估计条件。若进一步假设误差是多元高斯，那么加权最小二乘同时也是最大似然估计，因为高斯负对数似然正比于

(b - A x)^{T} V^{- 1} (b - A x) .

因此高斯假设解释了为什么选择这个二次目标；BLUE 定理则说明即使没有完整高斯分布，在无偏线性估计类中这个估计仍有最小方差。

边界条件

BLUE 的比较范围只包含线性无偏估计。带偏估计可能用偏差换取更小均方误差，非线性估计也不在定理比较范围内。若 $A$ 不满列秩，则 $A^{T} V^{- 1} A$ 不可逆，未知量不能被唯一无偏估计；若 $V$ 奇异，需要先明确噪声退化约束或改用广义逆形式。若使用了错误的协方差矩阵，估计仍可能无偏，但通常不再达到真实方差意义下的最优。

加权最小二乘和 BLUE 都属于 $L^{2}$ 平方误差框架。平方误差适合方差最小化和高斯噪声，但对离群点敏感，并且不会主动产生稀疏解。若任务更重视稳健性或稀疏性，常改用 $L^{1}$ 目标：

min_{x} \sum_{i} | (b - A x)_{i} | .

$L^{1}$ 问题的目标非光滑，通常不能通过线性正规方程直接求解。